min rank | avg. rank | sentence |
---|---|---|
6206 | 20888.8000 | Βοηθοί: Παπαδάκης (Ημαθίας) – Κόλλιας (Ηπείρου). |
4806 | 25926.2500 | Υπεύθυνος Σχολής Ευάγγελος Κατσιδώνης. |
4298 | 54031.8462 | Κόπηκαν: Στέργιος Νταουσανάκης, Δανάη Παχυγιαννάκη, Διονυσία Κωστοπούλου, Μαριαλένα Γιάνναρου, Αλέξανδρος Παπλιάκας, Στέφανος Κάκκος. |
4013 | 34989.7500 | Προπώληση εισιτηρίων www.viva.gr, τηλ. |
3634 | 26305.7500 | Συνάντηση Π. Μοσκοβισί- Στ. |
3578 | 22470.0000 | Εφάπαξ επίδομα νεανικής αλληλεγγύης. |
3363 | 48641.8750 | Ματθαίος, Προφήτης Ηλίας, Τάφοι Βενιζέλων, Αγ. |
3136 | 26980.1667 | Σχολείο Ναυπάκτου, Ρασβάνης Ανδρέας – 8ο Δημ. |
3017 | 4764.0000 | Της αξίζουν συγχαρητήρια! |
2984 | 9380.2500 | Άρα σπάνια πιέζουν επίμονα. |
2817 | 30251.3529 | Μέλη Διεθνούς Ολυμπιακής Ακαδημίας: Σπύρος Καπράλος, Μανώλης Κολυμπάδης, Μανώλης Κατσιαδάκης, Πολυξένη Αργειτάκη, Αθανάσιος Στρίγκας, Ευθύμης Κοτζάς. |
2778 | 32976.3333 | Ομοσπονδίας – Παννισυριακού Συλλόγου – |
2667 | 11768.0000 | Πανιώνιος, ΠΑΣ Γιάννινα, Άρης, Παναιγιάλειος. |
2600 | 31295.8571 | Δήμος Μ. Αλεξάνδρου, 58001 Καρυώττισσα Πέλλας – τηλ. |
2593 | 47980.9091 | • Αγριανά Χερσονήσου (Εγκατάσταση Επεξεργασίας Νερού Αποσελέμη) φωτοβολταϊκός σταθμός ισχύος 300 kW» |
2555 | 8599.2500 | Σοφιανός, εκπρόσωποι φορέων κα. |
2501 | 7727.2500 | Πορεία διαμαρτυρίας 400 χλμ. |
2446 | 4197.6667 | Τουλάχιστον 10.000 κτίρια υπέστησαν σοβαρές καταστροφές. |
2359 | 3467.7500 | Καιρός: Αρχικά γενικά αίθριος. |
2334 | 43481.4286 | «Ποταμώ ουκ έστιν εμβήναι δις τω αυτώ». |
2223 | 17682.8333 | Πρώην Δ/ντής Τροχαίας Αρχηγείου Ελληνικής Αστυνομίας. |
2195 | 47720.0000 | Γεύματα Αγάπης Εκκλησιαστικού Νεανικού Κέντρου, Μαυροκορδάτου 3α, Τ. Κ. 681 00 Αλεξ/πολη, τηλ. |
2125 | 7227.2000 | Καιρός: Νέο έκτακτο δελτίο επιδείνωσης! |
2118 | 55274.0000 | Πολύ γρηγορα βγαζετε συμπεράσματα. |
2044 | 16880.0000 | Έλλειψη ιατρικού προσωπικού διαφόρων ειδικοτήτων, έλλειψη ιατροτεχνολογικού εξοπλισμού, έλλειψη αναλωσίμων υλικών. |
1986 | 6589.0000 | Θέλουμε λιγότερους φόρους. |
1922 | 41373.1667 | Οργανωτική επιτροπή: Κατερίνα Αθανασίου, Χλόη Κολύρη, Βασιλική Ρούσσου, Παναγιώτης Τριτσιμπίδας, Ιορδάνης Κουμασίδης. |
1913 | 31877.6364 | Χατζηδάκη Ελευθερία, Νεογνολόγος, Διευθύντρια ΕΣΥ, ΜΕΝ Νεογνών, Πανεπιστημιακό Γενικό Νοσοκομείο Ηρακλείου. |
1891 | 2829.0000 | Είχαμε έλλειψη συγκέντρωσης. |
1891 | 38923.6667 | Είχαμε επικοιδομητικό διάλογο. |
In contrast to subsection 4.5.2.1 we now search for sentences consisting of rare words only. The sentences are ordered by the rank of the most frequent word in a sentence. In the table, we see the corresponding sentences with a minimum length of 40 characters.
The sentences are forced not to contain any everyday word. As a consequence, we get either sentences of some very reduced structure or sentences in some foreign language. Hence, the data are useful for the evaluation of the preprocessing, especially language detection.
select min(w_id)-100 as m, avg(w_id)-100 as a, s.sentence from sentences s, inv_w i where s.s_id=i.s_id and length(sentence)>40 and i.w_id>100 group by s.s_id order by m desc limit 30;
Should we remove the sentences having its least frequent word above some threshold?
4.5.2.1 Maximum word rank in sentence
4.5.2.2 Average word rank in sentence
4.5.2.4 Sentences consisting of many low frequency words II
4.5.2.5 Sentences consisting of short words only I
4.5.2.6 Sentences consisting of short words only II
4.5.2.7 Sentences consisting of long words only I
4.5.2.8 Sentences consisting of long words only II